提供者:刘晓
地址:https://www.kaggle.com/c/cdiscount-image-classification-challenge
简介
Cdiscount 是法国一家电子商务公司,竞赛的任务是构建一个图像分类模型,将某个产品图片分类到对应的产品种类上。每类产品包含多个产品图片,数据总共包括 9百万个产品,1千5百万张分辨率为180x180的图片,超过5000产品类别。
文件描述
- train.bson - (Size: 58.2 GB)每个产品包含有7 069,896个字典。每个字典都包含一个产品id (key: _id),产品的类别id (key: category_id),以及1-4个图像,存储在一个列表中(key: imgs)。每个图像列表包含一个单个字典,每个图像使用的格式是:{‘picture’: b’…二进制串……}。二进制字符串对应于JPEG格式的图像的二进制表示形式。这个内核提供了一个处理数据的示例。
- train_example.bson -包含训练数据的前100条记录。因此,您可以在下载整个集合之前开始研究数据。
- test.bson - (Size: 14.5 GB) 包含一份与train.bson相同格式的1,768,182个产品的清单,但不包括类别category_id。竞争的目的是根据每个产品id (_id)的图片来预测正确的category_id。在私有测试拆分中存在的category_id也都存在于公共测试拆分中。
- category_names.csv -显示产品分类的层次结构。每个category_id在法语中都有相应的level1、level2和level3。category_id对应于目录树的最低层。这种分层数据可能是有用的,但它对于构建模型和预测是不必要的。所有绝对必要的信息都是在train.bson中找到的。
文件大小
60.54Gb
文件类型
多个tar压缩文件